{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 第一章笔记及课后题"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#笔记"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "1.1什么是数据挖掘\n",
    "\n",
    "数据挖掘是数据库中知识发现(knowledge discovery in database,KDD)不可缺少的一部分，而KDD是将未加工的数据转换为有用信息的整个过程，如图1-1所示。该过程包括一系列转换步骤，从数据\n",
    "的预处理到数据挖掘结果的后处理。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<img src=\".\\\\数据挖掘.png\" alt=\"some_text\">\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "1.2数据挖掘要解决的问题\n",
    "\n",
    "(1)如何降低执行分布式计算所需的通信量?(2)如何有效地统一从多个 资源得到的数据挖掘结果?(3)如何处理数据安全性问题?\n",
    "非传统的分析 传统的统计方法基于一种假设-检验模式，即提出一种假设，设计实验来收集数据，然后针对假设分析数据。但是，这一过程劳力费神。当前的数据分析任务常常需要产生 和评估数千种假设，\n",
    "因此需要自动地产生和评估假设，这促使人们开发了一些数据挖掘技术。此外，数据挖掘所分析的数据集通常不是精心设计的实验的结果，并且它们通常代表数据的时机性 样本(opportunistic sample),而\n",
    "不是随机样本(random  sample)。而且，这些数据集常常涉及非传统的数据类型和数据分布。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "1.3数据挖掘的起源\n",
    "为迎接上述这些挑战，来自不同学科的研究者汇集到一起，开始着手开发可以处理不同数据 类型的更有效的、可伸缩的工具。这些工作都是建立在研究者先前使用的方法学和算法之上，而在数据挖掘领域达\n",
    "到高潮。特别地，数据挖掘利用了来自如下一些领域的思想：(1)来自统计学的抽样、估计和假设检验，(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<img src=\".\\\\多学科.png\" alt=\"some_text\">"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "1.4数据挖掘任务\n",
    "\n",
    "●预测任务。这些任务的目标是根据其他属性的值，预测特定属性的值。被预测的属性一 般称目标变量(target variable)或因变量(dependent  variable),而用来做预测的属性称说明变量(explanatory \n",
    "variable) 或自变量(independent variable)。\n",
    "\n",
    "● 描述任务。其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。 本质上，描述性数据挖掘任务通常是探查性的，并且常常需要后处理技术验证和解释结果。\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<img src=\".\\\\任务.png\" alt=\"some_text\">"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "预测建模：涉及说明变量函数方式为目标变量建立模型。\n",
    "分类：离散的目标变量；回归：连续的目标变量\n",
    "EG:鸢尾花的分类"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<img src=\".\\\\鸢尾花.png\" alt=\"some_text\">"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "关联分析：用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。\n",
    "EG：购物篮分析"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<img src=\".\\\\购物篮.png\" alt=\"some_text\">"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "聚类分析：发现紧密相关的观测值组群，使得与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能类似。\n",
    "EG：文档聚类"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<img src=\".\\\\文档聚类.png\" alt=\"some_text\">"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "\n",
    "异常检测：异常点、离群点\n",
    "EG：信用卡欺诈检测"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "1.5 本书的内容与组织\n",
    "\n",
    "本书从算法的角度介绍数据挖掘所使用的主要原理与技术。为了更好地理解数据挖掘技术如何用于各种类型的数据，研究这些原理与技术是至关重要的。对于有志于从事这个领域研究的读者，本书也可作为一\n",
    "个起点。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "\n",
    "#习题\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "1.讨论下列每项活动是否是数据挖掘任务\n",
    "\n",
    "(a) 根据性别划分公司的顾客。答：是。分类任务。\n",
    "(b) 根据可赢利性划分公司的顾客。答：是。分类任务。\n",
    "(c) 计算公司的总销售额。答：不是。统计任务。\n",
    "(d) 按学生的标识号对学生数据库排序。答：不是。排序任务。 \n",
    "(e) 预测掷一对骰子的结果。答：是。预测任务。\n",
    "(f)使用历史记录预测某公司未来的股票价格。答：是。预测任务。 \n",
    "(g) 监视病人心率的异常变化。答：是。异常检测任务。\n",
    "(h) 监视地震活动的地震波。答：是。异常检测任务。\n",
    "(i)提取声波的频率。答：不是。特征提取任务。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "3.对于如下每个数据集，解释数据私有性是否是重要问题。\n",
    "\n",
    "(a) 从1900年到1950年收集的人口普查数据。\n",
    "\n",
    "答：私有性是重要问题。这些数据包含人口的个人信息，加出生日期、家庭成员、居住地等。由于这些数据与个人身份有关，涉及隐私问题，需要谨慎处理，遵循相关的隐私法规和道德准则。\n",
    "\n",
    "(b) 访问你的Web站点的用户的IP 地址和访问时间。\n",
    "\n",
    "答：私有性是重要问题。IP地址和访问时间可用于追踪用户的上网行为和活动。这些信息可能揭示用户的位置、访问习惯等敏感信息。保护用户的隐私是关键，尤其是在遵循数据保护法规(GDPR)的情况下。\n",
    "\n",
    "(c)从地球轨道卫星得到的图像。\n",
    "答：私有性不一定是重要问题。这些图像通常不包含个人身份信息，因此不会涉及到个人隐私。然而，如果图像中包含了私人住宅等可能被识别的特征，可能需要考虑模糊处理以保护隐私。\n",
    "\n",
    "(d) 电话号码簿上的姓名和地址。\n",
    "\n",
    "答：私有性是重要问题。电话号码簿包含个人的姓名和地址信息，这些信息属于个人隐私。未经允许的公开或滥用可能导致骚扰、欺诈等问题，因此需要采取措施来保护这些信息。\n",
    "\n",
    "(e)从网上收集的姓名和电子邮件地址。\n",
    "\n",
    "答：私有性是重要问题。尽管这些信息相对于其他敏感信息可能较少，但仍然涉及到个人身份。这些信息可能被用于发送垃圾邮件、针对性的广告或其他不良行为。保护个人信息和隐私仍然是必要的。\n"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "base",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "name": "python",
   "version": "3.12.4"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
